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大 规模 众 核 体系 结构 的 并 行 模拟 


叶 笑 春 范 东 蹇 陈 明 宇 吕 慧 伟 


摘要 : 随 着 芯片 内 部 处 理 器 核 数 的 增多 ， 多 核 处 理 器 逐渐 有 向 众 核 方向 发 展 的 趋势 。 而 众 核 这 一 全 新 的 体 
系 结构 给 计算 机 模拟 带 来 了 挑战 。 串 行 模拟 已 经 难以 满足 速度 的 需求 ， 必 须 充 分 利用 现 有 并 行 宿 主机 的 多 
核资 源 ， 在 保证 不 损失 模拟 精度 的 前 提 下 提升 模拟 速度 。 本 文 以 众 核 和 众 核 集群 两 种 体系 结构 为 例 ， 说 明 
并 行 模拟 技术 在 计算 机 并 行 体系 结构 模拟 中 的 必要 性 和 可 行 性 ， 在 众 核 模 拟 中 ， 做 到 精度 不 变 ， 模 拟 速度 
提升 10 倍 ， 在 众 核 集群 模拟 中 ， 所 模拟 的 处 理 器 小 核 总 数 达 到 千 核 规模 ， 并 实现 了 混合 的 编程 运行 环境 ， 
为 该 结构 的 可 扩展 性 测试 提供 了 基础 。 


关键 词 ， 众 核 众 核 集群 并 行 模拟 


1 引言 


在 处 理 器 体系 结构 的 研究 中 ， 模 拟 器 占有 举足轻重 的 地 位 。 模 拟 器 技术 贯穿 于 整个 系统 
开发 的 过 程 之 中 : 开发 前 期 使 用 模拟 器 进行 粗 粒度 模拟 ， 以 选择 出 最 优 的 解决 方案 ; 开发 期 
间 对 各 种 微 结构 进行 验证 ; 开发 后 期 用 模拟 器 进行 软件 开发 及 测试 。 在 整个 硬件 系统 投入 运 
行 后 ， 还 可 以 基于 模拟 器 获取 单纯 依靠 硬件 系统 无 法 得 到 的 放 析 〈profiling) 信息 ， 对 系统 
进行 瓶颈 分 析 及 性 能 优化 。 在 计算 机 基础 研究 过 程 中 , 模拟 器 可 以 模拟 出 各 种 现 有 体系 结构 
甚至 未 来 的 新 型 体系 结构 ， 从 而 可 以 促进 微 结 构 和 系统 软件 的 研究 。 模 拟 器 具有 可 控 及 可 重 
复 等 优点 ， 所 以 是 洞察 系统 行为 的 重要 工具 。 


衡量 模拟 器 性 能 主要 有 两 个 指标 : 模拟 速度 和 模拟 精度 。 在 传统 的 串 行 模拟 中 ， 这 两 个 
指标 往往 不 可 兼 得 ， 提 高 模拟 速度 通常 会 导致 模拟 精度 的 损失 ， 反 之 亦 然 。 所 以 ， 如 何 实 现 
一 个 在 保证 模拟 速度 的 同时 ， 又 能 够 保证 模拟 精度 达到 预期 的 模拟 器 是 一 个 值得 研究 的 问 
题 。 而 在 当前 并 行 计算 资源 丰富 的 情况 下 ， 并行 模 拟 显 然 是 一 个 可 行 的 方案 。 引入 并 行 框架 
后 ， 如 何 进一步 模拟 更 大 规模 的 众 核 体系 结构 ， 实 现 干 核 模拟 的 目标 , 也 是 本 文 关注 的 一 个 


重要 问题 。 
2 ”相关 工作 


2.1 Graphite 

Graphite 模拟 器 是 美国 麻 省 理工 学 院 在 2010 年 发 布 的 开源 模拟 器 叫 ， 目标 性 能 在 100 至 
200 的 减速 比 之 间 。 它 的 主要 特点 是 使 用 松散 的 同步 机 制 ， 用 牺牲 模拟 精度 的 方法 来 提高 模 
拟 速度 。 
2.1.1 Graphite 的 执行 方式 

Graphite 是 一 个 快速 的 ， 高 层 Chigh-level) 的 大 规模 多 核 横 拟 器 。 对 于 在 模拟 器 上 运行 
的 应 用 程序 来 说 ， 它 对 自己 运行 在 什么 样 的 宿主 机 上 是 完全 不 知情 的 。 宿 主机 可 以 是 一 个 


Ee 
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SMP 的 多 核 机 器 ， 也 可 以 是 一 个 集群 ， 而 不 需要 对 应 用 进行 任何 的 修改 。 这 与 SimK 并 行 
模拟 框架 外 很 相似 。 在 SimK 中 ， 单 个 宿主 机 和 集群 宿主 机 上 运行 同一 个 测试 程序 ， 并 不 需 
要 对 模拟 的 程序 进行 任何 修改 ， 只 需要 修改 模拟 器 调用 的 SimK 的 应 用 程序 接口 《API) 即 
可 。 


在 Graphite 中 , 应 用 程序 的 每 个 线程 都 被 
映射 到 所 模拟 的 处 理 器 核 上 ， 可 以 有 一 个 或 
者 多 个 线程 被 映射 到 进程 中 ， 多 个 进程 可 以 
运行 在 不 同 的 宿主 机 上 ， 也 可 以 运行 在 同一 
个 宿主 机 上 。 所 以 Graphite 是 一 个 两 级 并 行 
的 模拟 架构 。 ... 二 二 让 
核 核 核 核 核 核 
另外 , Graphite 使 用 动态 的 二 进 制 翻译 器 te 


产生 指令 ， 并 对 应 用 程序 的 数据 访问 进行 了 
优化 。 它 将 应 用 程序 的 地 址 空间 静态 划分 到 
一 不 同 宿主 机 上 ， 并 将 与 该 地 址 空间 相关 的 数 
> 据 安置 在 相应 的 宿主 机 上， 频繁 访问 的 数据 
S 缓存 到 本 地 的 内 存 上 ， 这 就 解决 了 对 在 不 同 L 
SN 宿主 机 上 数据 的 频繁 访问 可 能 形成 瓶颈 的 问 1 


HI 
A 图 1，Graphite 三 层 结构 示意 图 


2.1.2 Graphite 的 同步 


Graphite 提供 了 三 种 不 同 的 同步 模型 ， 用 户 可 以 根据 自己 的 需要 选择 适合 自己 的 同步 方 


OO 式 。 
Lax 同步 


这 种 同步 方式 只 在 应 用 程序 中 发 生 同 步 事 件 时 〈 包 括 栓 锁 (locks)、 栅 栏 (barriers)、 通 
过 消息 传递 应 用 程序 接口 接收 消息 、 线 程 产生 和 结束 ) 才 同 步 局 部 时 钟 ， 因 此 同步 次 数 少 ， 
一 同步 开销 是 最 小 的 ， 模 拟 的 减速 比 也 最 小 。 但 这 些 事件 可 以 乱 序 发 生 ， 所 以 这 样 做 会 使 模拟 
《9 的 精度 变 差 。 
LaxP2P 
这 是 一 种 很 有 特点 的 同步 方式 。 人 们 经 过 观察 发 现 ， 时 间 不 精确 的 主要 原因 是 由 少数 线 
程 造成 的 ， 因 此 ， 可 以 每 过 若干 个 时 钟 周期 (cycles) 让 每 个 目标 核 随 机 与 另 一 个 核 组 合成 
一 对 做 比较 ， 如 果 两 者 周期 数 相 差 太 多 ， 则 周期 数 大 的 核 暂 停 运 行 一 段 时 间 。 使 用 这 种 同步 
方式 能 够 获得 较 好 的 性 能 ， 同 时 也 能 获得 较 好 的 模拟 精度 。 
LaxBar 
这 是 一 种 类 似 于 栅栏 的 同步 方式 。 每 过 若干 个 周期 ， 所 有 目标 核 进行 一 次 同步 。 这 可 以 
保证 核 之 间 得 到 充分 的 同步 , 而 且 当 同步 周期 间隔 等 于 1 时 ， 整 个 模拟 器 可 以 达到 时 钟 精 有 
的 模拟 精度 。 但 这 种 频繁 的 同步 方式 会 直接 导致 性 能 的 下 降 。 


2.2 Cotson 


1 Symmetric Multi-Processing， 对 称 式 多 重 处 理 架 构 
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COTson 是 惠普 公司 基于 AMD 的 SimNow 模拟 器 开发 的 全 系统 模拟 架构 下。 它 可 以 模拟 
单 核 、 多 核 甚至 带 互 联网 络 的 集群 。 模 拟 器 的 结构 “可 拆 乞 ”意味 着 用 户 可 以 用 自己 的 设 
计 来 蔡 换 掉 原 有 模块 。 


COTson 的 一 个 设计 原则 是 速度 和 精确 度 的 权衡 与 折 中 ， 即 可 以 牺牲 模拟 的 精度 来 换取 
精度 ， 或 反之 。 这 是 时 下 较为 流行 的 设计 原则 。 随 着 众 核 的 兴起 ， 模 拟 规模 随 之 增 大 ， 如 何 
在 可 以 容忍 的 时 间 内 完成 大 规模 模拟 也 成 为 一 个 研究 热点 ， 因 此 这 种 折 中 非常 必要 。 

2.2.1 COTson 中 的 模拟 技术 

COTson 使 用 SimNow 虚拟 机 做 功能 模拟 ， 使 用 自己 开发 的 时 序 后 端 来 确定 模拟 目标 的 

性 能 。COTson 的 目标 是 实现 大 规模 的 全 系统 模拟 ， 为 了 提高 速度 ， 采 用 了 采样 ‘Sampling) 
这 种 在 快速 模拟 中 经 常 使 用 的 技术 。 采样 的 方法 是 将 采样 机 制 和 模拟 器 耦合 ,采集 模拟 器 中 
运行 的 指令 和 访 存 信息 ， 再 将 这 些 信息 传 给 时 序 后 端 ， 从 而 快速 得 到 时 序 信息 。 

2.2.2 COTson 中 的 同步 

一 在 众 核 模拟 中 ， 目 前 采用 较 多 的 方法 是 并 行 离散 事件 模拟 算法 (PDES: parallel discrete 

> event simulation) 向， 但 是 精确 的 并 行 离散 事件 模拟 算法 会 在 同步 时 产生 较 大 的 额外 开销 ， 

拖 慢 模拟 器 运行 速度 。 这 在 大 规模 模拟 中 是 一 个 比较 严重 的 问题 , 所 以 在 一 些 不 注重 时 序 精 


确 性 的 模拟 器 中 就 会 对 该 算法 进行 改进 ， 牺 牲 部 分 精度 来 换取 更 快 的 模拟 速度 。 
COTson 中 使 用 的 同步 方法 是 动态 地 调整 同步 粒度 。 顾 名 思 义 ,“ 动 态 ”的 意思 就 是 那些 
不 关心 的 模拟 部 分 就 用 较 大 粒度 同步 ， 而 较为 关心 的 模拟 部 分 用 较 小 的 同步 粒度 ， 以 换 来 更 
快 的 模拟 速度 。 
二 从 COTson 中 采样 和 同步 这 两 个 很 重要 的 模拟 技术 来 看 ， 可 以 说 COTson 最 主要 的 思想 
GN 是 找到 我 们 关心 的 模拟 点 ， 放 宽 不 重要 部 分 的 精度 要 求 ， 达 到 精准 和 速度 兼顾 的 目的 。 
2 2.3 其 他 


BGLsimb 是 IBM 开发 的 BlueGene/L 模拟 器 ， 运 行 在 真实 的 Linux 集群 系统 上 ， 多 节点 
通信 使 用 MPE 实 现 。BGLsim 模拟 了 大 规模 集群 系统 BlueGene/L 的 所 有 硬件 ， 在 这 层 虚拟 
人 硬件 上 运行 BlueGene/L Linux 系统 ， 其 上 提供 了 移植 的 BlueGene/L MPI 库 。 


MPLSIMIG 是 美国 加 州 大 学 洛杉矶 分 校 开发 的 一 个 MPI 库 ， 主 要 用 来 测试 、 调 试 以 及 预 
测 并 行程 序 在 各 种 体系 结构 下 的 表现 ， 它 可 以 根据 目标 系统 的 参数 特征 给 出 不 同 的 模拟 结 
果 ， 主 要 参数 包括 处 理 器 个 数 以 及 通信 延迟 。MPLSIM 是 一 个 并 行 模拟 器 ， 它 还 提供 了 一 
种 新 的 保守 同步 算法 ， 减 少 了 同步 的 开销 和 频率 。 


Simicsi] 最 初 由 瑞典 计算 机 科学 研究 所 开发 ， 是 一 个 全 系统 模拟 器 ， 可 以 模拟 众多 平台 ， 
并 可 无 修改 地 运行 多 种 操作 系统 。Simics 可 模拟 多 种 指令 集 架 构 ， 并 拥有 丰富 的 外 设 支 持 ， 
在 并 行 方面 ，Simics 也 提供 了 基于 Link 机 制 的 并 行 模拟 方法 。 


3 ” 众 核 模拟 


上 述 提 到 的 一 些 模拟 器 都 有 着 各 自 的 特点 ， 而 我 们 在 众 核 模拟 方面 也 进行 了 自己 的 学 
试 。 我 们 前 期 在 并 行 框 架 以 及 众 核 模拟 方面 有 着 一 定 的 积累 ， 开 发 了 串 行 的 众 核 Godson-T 


”Message Passing Interface， 一 种 基于 消息 传递 的 并 行程 序 设 计 标 准 
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模拟 器 (GAS) [B9] 以 及 SimK 并 行 模拟 框架 中。 为 了 进 


步 加 速 众 核 模拟 的 速度 ,我 们 借助 


于 SimK 将 GAS 模拟 器 直接 并 行 化 ， 得 到 一 个 在 模拟 速度 和 模拟 精度 两 个 方面 都 能 兼顾 的 


并 行 众 核 模 拟 器 : P-GAS。 
3.1 SimK 并 行 模拟 框架 


SimK 是 一 款 为 了 支持 高 效 并 行 模拟 中， 并 最 大 限度 地 支持 通用 性 、 可 用 性 而 设计 的 


源 并 行 模拟 框架 。 它 满足 超大 规模 支持 、 高 可 扩展 性 、 异 构 宿 主机 支持 、 接 口 通用 性 和 简洁 


性 等 方面 的 支持 。 
SimK 使 用 并 行 离散 事件 模拟 算法 同步 机 制 。 


保 它 的 事件 列表 中 最 小 时 间 蕉 事件 可 以 被 安全 处 到 


该 算法 的 同步 机 制 的 核心 思想 是 如 果 系 统 
中 任何 局 部 都 是 同步 的 ， 则 整个 系统 就 是 同步 的 。SimK 采用 的 是 保守 并 行 离散 事件 模拟 算 
法 同步 方案 。 即 局 部 因果 关系 需要 严格 保证 ,任何 可 能 违背 因果 关系 的 操作 都 被 禁止 ， 在 确 
之 前 ， 该 逻辑 单元 被 阻塞 执行 。 


另外 ， 为 了 使 模拟 框架 的 效率 更 高 ，SimK 对 Pthread 进行 了 高 度 的 优化 ， 采 用 了 无 锁 的 


同步 机 制 ， 并 支持 在 用 户 级 对 线程 进行 调度 。 


SimK 向 外 提供 了 应 用 程序 接口 “API)， 可 以 方便 地 将 模块 化 的 模拟 器 并 行 化 ， 在 本 章 
主要 介绍 如 何 使 用 SimK 模拟 框架 对 Godson-T 众 核 模拟 器 GAS 进行 并 行 化 。 


3.2 GAS 模拟 器 


Godson-T 模拟 器 (GAS ) 是 一 款 串 行 模 
拟 Godson-T 芯片 的 事件 驱动 模拟 器 。 
Godson-T 芯片 是 一 天 高 性 能 的 众 核 芯片 , 片 
内 含有 64 个 处 理 器 核 ， 采 用 2D-Mesh 的 片 
上 网 络 结构 ， 处 理 器 核 之 间 及 与 L2 绥 存 的 
通信 通过 片上 的 路 由 (router) 进行 ,其 结构 
如 图 2 所 示 。 横 拟 器 GAS 的 目标 是 为 
Godson-T 开发 提供 一 个 模块 化 的 、 可 配置 的 
模拟 工具 。 它 使 用 事件 驱动 的 方式 来 模拟 目 
标 系 统 ， 即 模拟 模型 由 事件 驱动 ， 从 而 从 一 
个 状态 转变 成 另 一 个 状态 。 在 众 核 系统 中 ， 
事件 会 在 不 同 的 模拟 组 件 中 产生 ， 模 拟 组 件 
包括 处 理 器 核 、 路 由 、 二 级 缓存 等 。GAS 使 
用 全 局 队列 来 控制 事件 的 处 理 ， 并 且 是 时 序 
精确 的 。 


P-GAS 模拟 器 使 用 SimK 模拟 框架 将 
Godson-T 众 核 模拟 器 GAS 并 行 化 ， 并 行 目 
标 是 : 将 Godson-T 模拟 器 中 的 模块 划分 到 


制 器 


Ps 


内 存 把 


内 存 控制 器 


l l | 1 
缓存 | 缓存 | 缓存 | 缓存 


内 存 控制 器 


图 2. 拥有 64 个 处 理 器 核 的 
Godson-T 模拟 器 结构 


不 同 的 线程 上 ， 并 行 运行 模拟 任务 ， 取 得 较 好 的 加 速 比 ， 并 保证 结果 正确 及 模拟 精度 不 受 损 
耗 。 在 并 行 的 过 程 中 ， 为 了 得 到 更 好 的 可 扩展 性 ， 要 尽 可 能 减少 模拟 器 原本 代码 和 并 行 模拟 


五 


器 框架 的 代码 修改 量 。 
3.3 P-GAS 的 并 行 化 流程 
模块 的 划分 
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为 了 提高 P-GAS 模拟 器 的 运行 效率 ， 在 模块 划分 时 必须 考虑 组 件 之 间 的 关联 性 、 通 信 


量 、 负 载 平衡 等 因素 ， 
大 、 同 步 开 销 高 等 问 是 


封装 模块 


任何 一 个 因素 处 理 不 当 都 可 能 导致 ; 


题 。 


行 后 的 系统 有 负载 不 均 或 通信 量 
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在 模块 划分 完成 后 ， 还 需要 对 每 个 划分 出 的 子 系统 加 入 一 个 独立 的 事件 队列 ， 同 时 加 入 


SimK 同步 通信 应 用 程序 接 


SimK 中 模块 间 通 信 都 是 通过 一 个 SimK 通 
信 通 道 来 进行 。 模 块 产生 消 ， 


对 应 通道 的 缓冲 区 ， 


因 后 ， 将 消息 放 入 
符 到 通道 所 连接 的 另 一 个 


的 通信 通道 ， 


模块 被 调度 时 ， 会 查看 自己 所 有 


将 所 有 收 到 的 消息 取 


在 串 行 版 本 的 GAS 模拟 器 中 , 所 有 的 模块 
， 由 于 队列 随 模拟 器 运行 
会 变 得 很 长 ， 造 成 事件 插入 队列 开销 过 大 的 问 
题 。P-GAS 模拟 器 中 模块 划分 完成 后 ， 为 每 一 
个 模块 添加 一 个 局 部 队列 ， 取 消 原来 的 全 局 队 
列 ， 以 模块 为 单位 管理 队列 。 
的 负载 相对 均衡 ， 队 浆 


共享 同一 个 全 局 队列 


出 。 


都 可 以 方便 地 配置 管理 。 


因为 大 部 分 模块 
I 长 度 和 使 用 的 内 存 空间 


图 3. 封装 


改进 SimK 的 同步 通信 机 制 ， 使 其 适应 GAS 模拟 器 的 特殊 性 


P-GAS 模拟 器 沿用 SimK 的 保守 提前 量 (lookahead) 同步 ， 这 种 机 制 能 正确 运行 的 前 提 
就 是 模块 不 会 收 到 其 周期 值 小 于 模块 当前 自身 周期 值 的 事件 。GAS 


， 将 其 封装 成 一 个 SimK 式 的 模块 , 封装 后 的 模块 如 图 3 所 示 。 


医生 -山口 
口 口 口 口 


医 丰 也 串口 吕 
DIDDD 


后 的 模块 示意 图 


模拟 器 中 存在 一 种 0 延 


迟 事件 ， 主 要 用 于 模拟 信和 号 线 发 送 REQ / ACK 或 者 REQ / NACK 的 情况 。 这 种 事件 的 出 现 会 


导致 发 送 REQ 的 模块 在 时 钟 改变 之 后 才 收 到 其 人 


也 模块 返回 ACK/NACK， 而 此 时 的 模块 时 间 


大 于 所 需 处 理事 件 的 时 间 惟 , 直接 导致 SimK 的 保守 lookahead 同步 机 制 在 并 行 GAS 模拟 器 


的 工作 中 产生 运行 时 


错误 。 


解决 的 方法 是 引入 一 个 0 延迟 事件 的 计数 器 ， 给 每 个 模块 增加 
初始 值 为 0, 当 本 模块 的 处 理 函 数 有 REQ 请 求 要 发 送 到 其 他 模块 的 时 候 , 就 将 flag 增加 1， 
每 次 收 到 一 个 ACK 或 NACK 时 ， 就 将 flag 减少 1。 根 据 这 个 flag 标志 ， 模 块 可 以 很 简单 


一 个 标识 变量 flag， 其 


地 判断 出 当前 周期 是 否 仍 会 有 自己 要 求 其 他 模块 发 送 的 事件 到 来 , 从 而 根据 这 一 点 来 决定 时 


钟 是 否 可 以 前 进 。 


4 ” 众 核 集群 模拟 


在 实现 了 将 并 行 离散 事 人 


将 处 理 嚣 核 的 数量 增 
模 的 众 核 芯片 做 一 些 


模拟 算法 运用 到 单 芯片 内 众 核 模拟 器 的 并 行 加 速 后 ， 我 们 希望 


加 ， 以 验证 该 方法 在 蔚 片 规模 扩大 之 后 的 可 扩展 性 ,并 希望 针对 王 核 规 
探索 性 研究 。 针 对 现 有 模拟 器 ， 我们 将 干 核 模 拟 作为 一 个 目标 。 直观 来 


看 ， 针 对 我 们 希望 和 


器 扩展 为 拥有 1024 个 处 理 器 核 的 串 行 模拟 器 ， 然 后 采用 SimK 将 


究 干 核 体 系 结构 


的 需求 ， 有 两 种 解决 方案 : 第 


一 ， 将 原 有 的 GAS 模拟 


内 并 行 ， 完 成 单 片 干 核 的 


模拟 ， 第 二 ， 将 多 个 GAS 模拟 器 以 集群 的 方式 进行 互 连 ， 组 成 一 个 众 核 的 集群 模拟 器 ， 该 


集群 也 可 采用 SimK 


经 过 对 比分 析 ， 我 们 采用 


的 工作 量 较 大 ， 


日 扩 


一 些 模 块 ， 并 


作 的 积累 ， 对 Godson-T 集群 进行 模拟 ， 并 在 该 集群 上 移植 通信 库 ， 运 行 简单 的 应 用 
用 于 模拟 该 上 


作为 并 行 框 架 进 行 # 


了 


第 二 种 方案 。 原 


大 规模 众 核 体系 结构 的 并 行 模拟 


行 加速 。 


一 


展 性 不 佳 。 而 采用 
也 能 使 模拟 器 方 


我 们 的 目标 是 开发 一 个 时 钊 


我 们 所 希望 模拟 的 系统 结构 如 图 
核 集 群 模 拟 器 一 一 P-Gcluster。 


内 存 控制 


精确 


更 地 在 多 个 宿主 机 上 工作 ， 可 扩 


集群 的 方式 进行 模拟 , 对 现 有 的 串 行 模拟 器 只 
展 性 可 以 得 到 良好 的 保证 。 


的 众 核 集群 模拟 器 ， 基 于 GAS 模拟 器 和 SimK 


因 在 于 第 一 种 方案 中 ， 修 改 现 有 串 行 模拟 器 


需 添 加 


两 个 工 


程序 。 


4 所 示 。 为 此 ， 我 们 开发 了 一 个 


16 个 刀片 通过 
一 级 交换 连接 


处 理 内 核 


Private 1-$ 


霖 存 器 文件 | 2 


FP/ DTA 


中 和 


每 个 小 核 的 内 部 结构 


可 
千 
下 
肪 


每 片 Godson-T 上 有 6 


图 4. 


和 


和 有 4096 处 理 


4 个 小 核 


器 核 的 Godson-T 集群 结构 


4.1P-Gcluster 中 网 卡 及 交换 机 模块 的 设计 


PF， 没有 与 外 界 的 交互 模块 ， 所 以 如 果 将 多 个 GAS 模拟 器 通过 互 
连 的 方式 组 成 干 核 规 模 的 集群 方式 ， 需 要 为 GAS 模拟 器 增加 一 个 网 卡 模块 ， 如 图 5 所 示 ， 


在 原 有 的 GAS 模拟 器 


包 的 过 程 可 以 概括 为 三 步 ， 
网 卡 发 一 个 事件 ; 


第 三 ， 网 


主要 模拟 网 卡 的 控制 寄存 器 、 状 态 寄 存 器 和 数据 缓冲 


而 使 用 交换 机 将 各 个 GAS 模拟 器 的 网 - 
网 卡 作为 GAS 模拟 器 与 交换 机 之 间 传 输 数 据 的 桥梁 。 在 GAS 模拟 器 中 ， 


区 。 


名 


FE 进行 连接 ， 就 可 以 组 成 一 个 众 核 集群 。 其 中 ， 


标 结构 的 众 


发 送 一 个 数据 


第 一 ，GAS 模拟 器 往 网 卡 缓冲 区 写 数 据 ;， 第 二 ， 


卡 往 交 换 机 发 送 数据 包 。 详 细 流 程 如 图 6 所 示 。 


GAS 模拟 器 给 
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读 写 控 制 器 


控制 寄存 器 


对 于 网 卡 的 模拟 ， 
接口 


在 我 们 的 基本 网 卡 中 ， 


流量 控制 是 网 络 中 各 个 组 件 之 间 用 于 发 送 和 接 
收 流量 控制 单元 的 一 种 同步 协议 ， 由 它 决定 数 
据 包 的 发 送 时 机 。 流 量 控制 的 目的 是 在 不 引起 
缓冲 区 溢出 的 前 提 下 确保 数据 可 以 成 功 地 由 数 


是 一 样 的。 在 网 卡 设计 中 ， 我 们 根据 模拟 的 粒 
度 不 同 ， 设 计 了 简单 网 卡 和 基本 网 卡 两 种 。 这 
两 种 网 卡 均 使 用 数学 建 模 方 式 模拟 各 个 阶段 延 
迟 ， 而 基本 网 卡 相 对 于 简单 网 卡 增加 了 数据 包 
在 缓冲 区 中 的 排队 延迟 以 及 流量 控制 机 制 。 


为 了 真实 模拟 硬件 环境 中 网 卡 的 工作 过 程 ， 


图 5， GAS 上 网 卡 结构 示意 图 


不 同 的 精度 体现 在 网 卡 往外 发 包 这 一 步 ， 但 是 网 卡 模块 与 处 理 器 核 的 


置 控制 寄存 器 为 “发 送 ” 


加 入 了 流量 控制 机 制 。 是 
数据 存 入 网 卡 缓冲 


因 数据 全 部 写 入 缓冲 


据 发 送 方 传递 到 数据 接收 方 ， 也 就 是 说 流量 控 


[= 
量 :EE 


制 是 交换 收发 双方 缓 ; 


! 区 状态 的 一 种 方式 。 


在 我 们 的 系统 中 ， 


为 接收 缓冲 区 的 数量 ， 


个 GAS 模拟 器 之 间 则 


我 们 采用 了 基于 相对 信用 
Ccredit) 的 流量 控制 机 制 09。 首 先 设置 信用 


网 卡 开始 发 送 数 据 包 


图 6. 网 卡 发 送 数 据 流程 图 


它 也 代表 接收 方 接收 数据 包 的 能 力 ， 该 机 制 的 工作 原理 如 图 7 所 示 。 


在 模拟 器 中 ， 网 卡 模块 作为 GAS 模拟 器 的 补充 ， 负 责 GAS 模拟 器 与 外 界 的 通信 。 而 多 


需要 交换 机 模块 进行 连接 。 在 系统 中 ， 交 换 机 模块 作为 SimK 的 一 个 


组 件 ， 在 SimK 中 注册 ， 并 由 SimK 进行 调度 。 


交换 机 功能 可 以 分 为 数据 转发 和 控制 两 个 部 分 ， 其 中 数据 转发 功能 负责 数据 的 快速 传 
递 ,由 交换 结构 和 排队 结构 组 成 ;而 控制 功能 负责 交换 机 的 配置 管理 以 及 路 由 填充 等 。 控 制 


功能 一 般 由 软件 实现 ， 


此 处 不 予 讨论 。 


按照 单个 GAS 模拟 器 内 拥有 64 个 处 理 器 核 的 规模 ， 我 们 在 集群 模拟 器 中 ， 需 要 16 个 


GAS 模拟 器 才能 达到 
16 个 端口 ， 分 别 连 接 


1024 个 处 理 器 核 的 规模 。 所 以 我 们 在 设计 交换 机 模块 时 ， 为 其 设置 了 
16 个 GAS 模拟 器 的 网 卡 模块 。 


当 SimK 对 交换 机 运行 进行 调度 时 ， 交 换 机 轮 询 自 己 的 16 个 端口 ， 检 查 是 否 有 数据 包 


7 


大 规模 众 核 体系 结构 的 并 行 模拟 


到 达 。 有 数据 包 到 达 时 ， 接 收 数据 包 ， 将 其 放 到 交换 机 的 缓 ; 


还 有 没有 接收 的 数据 包 , 直到 所 有 数据 包 接 收 完成 。 然 后 识别 接收 到 的 数据 包 . 


! 队 列 中 ， 并 重复 检查 端口 是 


上 所 带 


区 


口 


的 时 i 


玲 , 车 与 当前 时 间 一 致 ， 则 本 周 其 | 

将 数据 包 发 送出 去 , 否则 交换 机 此 人 

次 的 调用 结束 ， 直 到 下 一 次 被 人 

SimK 调用 。 1 队列 申 的 
上 面 已 经 提 到 ， 为 了 避免 数据 ; 

包 在 传输 过 程 中 的 丢失 , 更 加 精确 | 

地 模拟 真实 硬件 , 我 们 在 基本 网 卡 I 

中 添加 了 流量 控制 机 制 , 为 配合 基 Tx_Ccnt | Fwd_Cnt 

本 网 卡 中 的 流 控 机 制 , 交换 机 模块 -1 - 区 食用) 一 

也 增加 了 对 流 控 的 支持 。 为 了 模拟 wa Se 

数据 包 在 交换 机 中 的 排队 延 时 , 我 , | 0 

们 设置 了 1 个 时 钟 周期 内 交换 机 crd_Bal | Tx_cnt-Fwd_cnt 

可 以 发 送 数据 包 的 个 数 上 限 。 在 1 ee I 

个 时 钟 周期 内 , 即使 还 有 数据 包 没 。 ”Fwd_cnt) | 


有 处 理 完毕 , 交换 机 也 必须 停止 这 
一 时 钟 周期 内 的 工作 , 并 将 所 有 未 


处 理 的 数据 包 上 的 时 间 戳 加 1， 以 便 下 一 


图 7. 基于 信用 的 流 控 机 制 原理 


个 时 钟 周期 继续 发 送 。 


4.2 P-Gcluster 中 片 间 互连网 络 的 设计 
在 多 个 GAS 模拟 器 进行 互 连 时 ， 要 在 模拟 的 第 一 步 实现 无 阻塞 的 网 络 ， 只 给 出 数学 分 


析 的 传送 包 的 延迟 , 不 模拟 包 对 缓冲 区 的 


竞争 情 


行 互 连 。 


最 为 简单 、 成 本 最 低 的 一 种 结构 是 


总 线 式 互 连 。 


/CN 


输 延 迟 还 可 以 保持 在 比较 低 的 水 平 ， 但 
而 此 时 总 线 也 会 成 为 节点 间 通 信 的 瓶颈 
种 互 连 可 供 选择 : 交叉 开关 互 连 、 二 


综合 几 种 互 连 的 特征 以 及 我 们 目前 


》 


是 随 着 节点 数量 的 增多 ， 总 线 上 的 竞 儿 
展 。 针 对 集群 系统 ， 一 般 有 以 下 几 
Mesh 《网 状 网 ) 互 连 或 者 胖 树 互 连 。 


的 模拟 规模 ， 我 们 选择 了 用 


不 利于 而 点 的 扩 


lf 树 互 连 的 方式 。 胖 


况 。 众 核 集 群 的 多 个 节点 可 以 有 多 种 方式 进 
这 种 结构 在 无 竞争 的 情况 下 ， 传 
会 越发 明显 ， 


树 在 很 


多 高 性 能 计算 系统 中 得 到 了 广泛 的 应 用 。 由 于 翌 树 的 主要 特点 是 等 分 带宽 ,克服 了 一 般 二 又 
树 或 者 多 又 树 中 可 能 出 现 的 根 节 点 成 为 系统 瓶颈 、 没 有 宛 余 通 路 以 及 容错 性 能 交叉 的 缺点 ， 
从 时节 点 到 根 节 点 的 通信 带宽 逐步 增加 ， 包 含 众多 宛 余 链 路 ， 为 实现 可 靠 性 提供 了 基础 。 且 
胖 树 能 够 满足 高 带宽 、 低 延迟 和 可 扩展 的 需要 。 

P-Gcluster 的 整体 拓扑 如 图 4 所 示 。 每 个 刀片 由 4 个 GAS 模拟 器 组 成 ， 由 16 个 刀片 组 


人 往 


下 


成 一 个 小 的 集群 。 在 
我 们 的 模拟 中 ， 集 群 结构 采用 的 是 一 级 用 


4.3 P-Gcluster 上 的 两 级 并 行 环境 
拥有 了 网 卡 和 互连网 络 之 后 


EF 树 16-port 1-tree 结构 。 


， 集 群 模拟 器 的 平台 部 分 基本 成 型 ， 但 在 这 个 平台 


群 中 ， 可 以 采用 比较 典型 的 m-port n-trees (m- 端 口 n- 树 ) 结构 ， 在 


运行 并 


测试 程序 还 需要 有 通信 库 的 支持 ,以 便 在 平台 上 进行 开发 和 运行 程序 的 工作 。 在 GAS 内 部 ， 


经 过 
可 扩 
发 。 


SimK 的 并 行 化 ， 己 经 支持 pthread 


展 性 的 目标 ， 我 们 在 集群 模拟 器 上 移植 了 MPID 


的 多 线程 运行 。 但 是 ， 


在 集群 模拟 器 ， 


》 、 


了 达到 


以 便 在 此 平台 上 进行 应 用 程 


序 的 
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首先 ,为 了 测试 MPI 
通过 这 个 简化 MPI 的 测试 ， 


信 ， 


罗拉 术 快 报 
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们 又 移植 了 目前 被 ) 


行 ， 
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hb 六 个 基本 的 函数 , 我 们 在 众 核 集群 模拟 平台 上 移植 了 简化 版 本 的 
验证 了 MPI 在 该 平台 J 


上 可 以 正确 运行 。 接 着 我 


泛 采 用 的 MPICH， 以 更 好 地 支持 MPI 的 所 有 函数 ， 并 方便 应 用 程序 在 


集群 模拟 器 上 的 开发 。 

通过 MPICH 的 移植 ， 我 们 搭建 了 一 个 两 级 
间 通 过 消息 传递 进行 片 间 通 信 ， 而 在 单个 处 到 
与 众 核 集群 的 结构 比较 吻合 。 


4.4 P-Gcluster 多 进程 多 宿主 机 的 扩展 


上 拥有 的 物理 


一 步 提高 模拟 性 能 ， 我 们 需要 将 宿主 机 进行 扩展 ， 二 
需要 解决 如 下 问题 : 


在 跨 主 机 的 模拟 中 ， 


器 必 有 片 中 ， 


行 的 混合 
各 个 处 型 


于 宿主 机 资源 有 限 ， 随 着 所 模拟 系统 规模 的 增长 ， 如 果 需 要 模拟 的 节点 数 
处 理 器 核 数 量 , 在 单个 宿主 机 上 进行 模拟 时 宿 


编程 环境 : 


在 多 个 处 理 器 芯片 之 
器 核 通 过 pthread 并 行 运 


超过 宿主 机 


机 性 能 会 成 为 模拟 的 瓶颈 。 为 


1. 底层 网 络 通 信 需 要 通过 


2. 在 多 宿主 机 上 运行 模拟 器 时 ， 


责 给 每 个 宿主 机 进行 编号 ， 任 务 


5 实验 


模拟 器 最 为 重要 的 两 个 评价 指标 
为 模拟 器 的 速度 以 及 模拟 器 的 精度 。 我 


们 在 本 文 所 
众 核 模拟 集群 上 分 


述 的 众 核 模拟 器 平台 和 
别 对 其 进行 了 测试 ， 


以 下 是 一 些 测试 结果 。 


对 于 众 核 模拟 器 P-GAS, 我 们 采用 


SPLASH-2 Kernel!™” 


它 是 一 个 被 广泛 使 


程序 包括 了 


民 多 使 


用 率 非 常 
计算 应 用 , 所 以 非常 


并 行程 序 测试 集 ， 


用 的 用 于 测试 分 布 
式 共享 存储 多 核 处 型 


器 的 测试 集 。 测 斌 
高 的 科学 
于 测试 高 性 


适合 


能 计算 系统 。 本 文 使 用 的 实验 平台 为 4 


CPU 
(总 


PNAA 


16 核 )。 


的 AMD Opereton 8347SMP 系统 
图 8 为 在 P-GAS 模拟 


器 上 运行 SPLASH-2 Kernel 所 得 到 的 


加 速效 果 。 


表 1 列 出 了 
相 比 的 差异 。 


需要 一 个 统一 


分 配 并 支持 并 行 编程 中 的 集 


P-GAS 模拟 器 在 不 同 线程 运行 SPLASH-2 时 的 周 
可 以 看 到 ，P-GAS 模拟 器 在 


套 接 字 (Socket)， 需 要 MPI 的 支持 


的 运行 时 环境 ， 文 持 单一 


E 宿 主机 集群 上 模拟 目标 集群 系统 。 


持 ; 


系统 映像 ， 负 


Splash-2 kernel 加 速 


合 操 作 等 。 


束 比 


FFT ”基数 排序 LU 分 解 三 角 分 解 


有 1 线程 
国 8 线程 


图 8，P-GAS 模拟 
运行 SPLASH- 


号 16 线程 


平均 
号 4 线程 
GAS 


2 线程 


器 上 多 线程 并 行 
2 的 加 速效 果 


图 中 FFT: 快速 全 里 叶 变 换 


期 数 与 原 串 行 模拟 器 GAS 


时 , 也 保持 了 很 高 的 精度 。 实 现 了 一 个 在 速度 与 精度 两 方面 都 能 达 至 


对 于 众 核 集群 模拟 ， 我 们 主要 测试 了 P-Gcluster 的 可 扩展 性 。 我 们 在 众 核 集群 模拟 器 上 
E 阵 乘法 等 测试 用 例 。 


测试 了 cpi、 点 


点 积 乘 以 及 多 


得 到 的 性 能 


效果 如 图 


16 线程 运行 时 保证 性 能 得 到 平均 10 倍 提升 的 同 


上 要 求 的 并 行 众 核 模 拟 器 。 


9 所 示 。 


大 规模 众 核 体系 结构 的 并 行 模拟 


表 1.P-GAS 上 多 线程 并 行 运行 SPLASH-2 与 串 行 版 本 的 周期 数 误差 
FFT” ”基数 排序 ” LU 分 解 ” 三 角 分 解 全 部 


16 线程 0.01% 0.07% 0.01% 0.17% 0.07% 
8 线程 0.00% 0.44% 0.01% 0.14% 0.05% 
4 线程 0.01% 0.07% 0.00% 0.02% 0.01% 
2 线程 0.01% 0.51% 0.00% 0.02% 0.01% 
单线 程 0.01% 0.01% 0.00% 0.14% 0.06% 


快速 傅 里 叶 变 换 ，*Radix 


包 
| 
的 
R 
江 \ 
导 求 N N 
8 史 
E 人 NN 
狂 EN EN SN 
EN AN RN 
A NI 
EN EN EN 
cpi 点 积 fox 
线程 数 : 国 1 四 2 加 4 国 8 口 16 


图 9. P-Gcluster 上 多 线程 并 行 运行 的 加 速效 果 
图 中 cpi: 计算 元 值 的 算法 ; fox: 一 种 矩阵 乘法 的 并 行 算 法 。 


我 们 对 多 进程 的 情况 也 进行 
了 一 些 测试 ， 主 要 测试 了 点 积 乘 和 秆 oN i, 
阵 乘法 在 多 进程 下 的 可 扩展 性 ， 其 结 
果 如 图 10 所 示 50 

4 4 
可 以 看 到 ， 随 着 进程 数量 的 增加 ， 

众 核 集群 模拟 器 中 各 进程 间 需 要 传递 和 161 0T 7 
的 数量 增多 ， 网 卡 以 及 互连网 络 仍 有 进程 数 进程 数 
进一步 的 优化 空间 。 图 10.P-Gcluster 上 多 进程 并 行 运行 的 结果 


6 总 结 


众 核 已 经 成 为 当今 芯片 发 展 的 趋势 ， 而 模拟 器 在 必 片 开发 中 起 了 关键 的 作用 。 如 何 提高 
众 核 模拟 器 的 模拟 效率 ， 使 其 模拟 规模 扩大 就 成 为 一 个 研究 热点 。P-GAS 是 Godson-T 体系 
结构 模拟 器 的 并 行 版 本 。 为 了 能 够 使 P-GAS 的 模拟 效率 更 高 ,我 们 拆 分 了 GAS 模拟 器 的 全 
局 队列 ， 根 据 GAS 模拟 器 的 拓扑 进行 了 有 效 的 模块 划分 。 在 高 效 SimK 并 行 框架 基础 上 
我 们 有 效 地 解决 了 P-GAS 模拟 器 的 零 延 迟 同 步 问 题 。 
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我 们 从 加 速 比 和 精度 损耗 两 个 方面 对 并 行 效果 进行 了 分 析 。 模 拟 器 达到 了 平均 加 速 10 


倍 的 目标 ， 最 高 加 速达 到 13.6 倍 ;精度 方面 ， 损 耗 最 高 只 有 0.5%， 平 均 不 超过 0.1%， 对 模 


拟 器 的 体系 结构 的 研究 不 会 造成 大 的 影响 。 
进入 2010 年 后 “如 何 模拟 千 核 ”成 为 模拟 器 界 的 热门 话题 。 


| 


GAS 模拟 器 的 模拟 目标 虽 


然 为 众 核 , 但 是 核 的 数量 离 千 核 仍然 存在 一 定 差距 ， 所 以 我 们 以 P-GAS 模拟 器 的 工作 为 
基础 ， 开 发 了 一 个 众 核 集群 模拟 器 ， 同 样 使 用 SimK 作为 并 行 模拟 的 框架 。 随 着 模拟 处 理 器 
核 数 量 的 增加 ， 导 拟 集群 可 以 部 署 在 宿主 机 集群 上 ， 实 现 多 核 集群 模拟 众 核 集 群 ， 充 分 发 挥 


现 有 和 多核 集群 平台 的 优势 ， 快 速 精确 完成 干 核 并 行 模拟 。 
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